智能论文笔记

Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning

Lianmin Zheng , Zhuohan Li , Hao Zhang , Yonghao Zhuang , Zhifeng Chen , Yanping Huang , Yida Wang , Yuanzhong Xu , Danyang Zhuo , Eric P. Xing

分类：机器学习

2022-01-28

ALPA通过生成统一数据，操作员和管道并行性的执行计划来自动对大型深度学习（DL）模型的模型平行训练。现有的模型并行训练系统要求用户手动创建并行化计划，或者自动从有限的模型并行性配置中生成一个计划。它们不足以在分布式计算设备上扩展复杂的DL模型。 ALPA通过将并行性视为两个层次级别来分配大型DL模型的训练：操作员和操作员并行性。基于它，ALPA构建了一个新的分层空间，用于大规模的模型并行执行计划。 ALPA设计了许多汇编，以在每个并行性级别自动得出有效的并行执行计划。 ALPA实现了有效的运行时，以在分布式计算设备上协调两级并行执行。我们的评估表明，ALPA生成的并行化计划，即使在其设计的型号上，也可以匹配或超过手动模型并联训练系统。与专业系统不同，ALPA还推广到具有异质体系结构和模型的模型，而没有手动设计的计划。 ALPA的源代码可在https://github.com/alpa-projects/alpa上公开获得

translated by 谷歌翻译

Coherence-Based Distributed Document Representation Learning for Scientific Documents

Shicheng Tan , Shu Zhao , Yanping Zhang

分类：自然语言处理

2022-01-08

分布式文档表示是自然语言处理中的基本问题之一。目前分布式文档表示方法主要考虑单词或句子的上下文信息。这些方法不考虑文件作为整体的一致性，例如文档之间的关系，文档中的纸张标题和抽象，标题和描述或相邻机构之间的关系。一致性显示文档是否有意义，逻辑和句法，尤其是科学文档（论文或专利等）。在本文中，我们提出了一个耦合文本对嵌入（CTPE）模型来学习科学文档的表示，其通过分割文档来维护文档与耦合文本对的相干性。首先，我们将文档划分为构造耦合文本对的两个部分（例如，标题和抽象等）。然后，我们采用负面采样来构建两个部分来自不同文档的未耦合文本对。最后，我们训练模型以判断文本对是否被耦合或解耦并使用所获得的耦合文本对的嵌入作为嵌入文档。我们在三个数据集上执行实验，以获得一个信息检索任务和两个推荐任务。实验结果验证了所提出的CTPE模型的有效性。

translated by 谷歌翻译

GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

Nan Du , Yanping Huang , Andrew M. Dai , Simon Tong , Dmitry Lepikhin , Yuanzhong Xu , Maxim Krikun , Yanqi Zhou , Adams Wei Yu , Orhan Firat

分类：自然语言处理

2021-12-13

具有更多数据，计算和参数的缩放语言模型在自然语言处理方面取得了重大进展。例如，由于缩放，GPT-3能够在内心学习任务上实现强烈结果。但是，培训这些大密度模型需要大量的计算资源。在本文中，我们提出并开发了名为Glam（通用语言模型）的语言模型系列，它使用稀疏激活的专家架构来规模模型容量，同时与致密变体相比，也产生显着更少的训练成本。最大的Glam具有1.2万亿参数，比GPT-3大约为7倍。它仅消耗了用于训练GPT-3的1/3的能量，并且需要一半的计算拖鞋进行推理，同时仍然在29个NLP任务中实现更好的整体零射击和一次性性能。

translated by 谷歌翻译

Comprehensive and Clinically Accurate Head and Neck Organs at Risk Delineation via Stratified Deep Learning: A Large-scale Multi-Institutional Study

Dazhou Guo , Jia Ge , Xianghua Ye , Senxiang Yan , Yi Xin , Yuchen Song , Bing-shen Huang , Tsung-Min Hung , Zhuotun Zhu , Ling Peng

分类：计算机视觉

2021-11-01

风险的准确器官（OAR）分割对于减少治疗后并发症的放射治疗至关重要。达人指南推荐头部和颈部（H＆N）区域的一套超过40桨的桨，然而，由于这项任务的可预测的禁止劳动力成本，大多数机构通过划定较小的桨子和忽视的少数，选择了大量简化的协议与其他桨相关的剂量分布。在这项工作中，我们提出了一种使用深度学习的新颖，自动化和高效的分层OAR分段（SOARS）系统，精确地描绘了一套全面的42 H＆N OAR。 SOARS将42桨分层进入锚，中级和小型和硬质子类别，通过神经结构搜索（NAS）原则，专门为每个类别提供神经网络架构。我们在内在机构中使用176名培训患者建立了SOAR模型，并在六个不同的机构中独立评估了1327名外部患者。对于每个机构评估，它始终如一地表现出其他最先进的方法至少3-5％的骰子得分（在其他度量的相对误差减少36％）。更重要的是，广泛的多用户研究明显证明，98％的SOARE预测只需要非常轻微或没有直接临床验收的修订（节省90％的辐射脑神经工作负载），并且它们的分割和剂量准确度在于或小于帧 - 用户的变化。这些调查结果证实了H＆N癌症放射疗法工作流OAR描绘过程的强烈临床适用性，提高了效率，全面性和质量。

translated by 谷歌翻译

BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition

Yu Zhang , Daniel S. Park , Wei Han , James Qin , Anmol Gulati , Joel Shor , Aren Jansen , Yuanzhong Xu , Yanping Huang , Shibo Wang

分类：自然语言处理 | 机器学习

2021-09-27

我们总结了使用巨大的自动语音识别（ASR）模型的大量努力的结果，该模型使用包含大约一百万小时音频的大型，多样的未标记数据集进行了预训练。我们发现，即使对于拥有数万个小时的标记数据的非常大的任务，预训练，自我培训和扩大模型大小的组合也大大提高了数据效率。特别是，在具有34K小时标记数据的ASR任务上，通过微调80亿个参数预先训练的构象异构体模型，我们可以匹配最先进的（SOTA）性能（SOTA）的性能，只有3％的培训数据和通过完整的训练集可以显着改善SOTA。我们还报告了从使用大型预训练和自我训练的模型来完成一系列下游任务所获得的普遍利益，这些任务涵盖了广泛的语音域，并涵盖了多个数据集大小的大小，包括在许多人中获得SOTA性能公共基准。此外，我们利用预先训练的网络的学会表示，在非ASR任务上实现SOTA结果。

translated by 谷歌翻译

Scaling Instruction-Finetuned Language Models

Hyung Won Chung , Le Hou , Shayne Longpre , Barret Zoph , Yi Tay , William Fedus , Yunxuan Li , Xuezhi Wang , Mostafa Dehghani , Siddhartha Brahma

分类：机器学习 | 自然语言处理

2022-10-20

Finetuning language models on a collection of datasets phrased as instructions has been shown to improve model performance and generalization to unseen tasks. In this paper we explore instruction finetuning with a particular focus on (1) scaling the number of tasks, (2) scaling the model size, and (3) finetuning on chain-of-thought data. We find that instruction finetuning with the above aspects dramatically improves performance on a variety of model classes (PaLM, T5, U-PaLM), prompting setups (zero-shot, few-shot, CoT), and evaluation benchmarks (MMLU, BBH, TyDiQA, MGSM, open-ended generation). For instance, Flan-PaLM 540B instruction-finetuned on 1.8K tasks outperforms PALM 540B by a large margin (+9.4% on average). Flan-PaLM 540B achieves state-of-the-art performance on several benchmarks, such as 75.2% on five-shot MMLU. We also publicly release Flan-T5 checkpoints, which achieve strong few-shot performance even compared to much larger models, such as PaLM 62B. Overall, instruction finetuning is a general method for improving the performance and usability of pretrained language models.

translated by 谷歌翻译

NeuralRoom: Geometry-Constrained Neural Implicit Surfaces for Indoor Scene Reconstruction

Yusen Wang , Zongcheng Li , Yu Jiang , Kaixuan Zhou , Tuo Cao , Yanping Fu , Chunxia Xiao

分类：计算机视觉

2022-10-13

We present a novel neural surface reconstruction method called NeuralRoom for reconstructing room-sized indoor scenes directly from a set of 2D images. Recently, implicit neural representations have become a promising way to reconstruct surfaces from multiview images due to their high-quality results and simplicity. However, implicit neural representations usually cannot reconstruct indoor scenes well because they suffer severe shape-radiance ambiguity. We assume that the indoor scene consists of texture-rich and flat texture-less regions. In texture-rich regions, the multiview stereo can obtain accurate results. In the flat area, normal estimation networks usually obtain a good normal estimation. Based on the above observations, we reduce the possible spatial variation range of implicit neural surfaces by reliable geometric priors to alleviate shape-radiance ambiguity. Specifically, we use multiview stereo results to limit the NeuralRoom optimization space and then use reliable geometric priors to guide NeuralRoom training. Then the NeuralRoom would produce a neural scene representation that can render an image consistent with the input training images. In addition, we propose a smoothing method called perturbation-residual restrictions to improve the accuracy and completeness of the flat region, which assumes that the sampling points in a local surface should have the same normal and similar distance to the observation center. Experiments on the ScanNet dataset show that our method can reconstruct the texture-less area of indoor scenes while maintaining the accuracy of detail. We also apply NeuralRoom to more advanced multiview reconstruction algorithms and significantly improve their reconstruction quality.

translated by 谷歌翻译

Building Machine Translation Systems for the Next Thousand Languages

Ankur Bapna , Isaac Caswell , Julia Kreutzer , Orhan Firat , Daan van Esch , Aditya Siddhant , Mengmeng Niu , Pallavi Baljekar , Xavier Garcia , Wolfgang Macherey

分类：自然语言处理 | 人工智能 | 机器学习

2022-05-09

在本文中，我们分享了我们努力建立能够翻译一千多种语言的实用机器翻译（MT）系统的发现。我们在三个研究领域中描述了结果：（i）通过利用半监督预训练的语言识别和开发数据驱动的过滤技术来构建1500多种语言的清洁，网挖数据集；（ii）通过利用大规模的多语言模型来开发用于服务不足的语言的实用MT模型，该模型训练了有监督的并行数据，以使用100多种高资源语言和单语言数据集，以增加1000多种语言；（iii）研究这些语言的评估指标的局限性，并对我们MT模型的输出进行定性分析，突出显示了这些类型模型的几种频繁误差模式。我们希望我们的工作为旨在为当前研究的语言构建MT系统的从业者提供有用的见解，并突出显示可以补充Data-Sparse设置中大量多语言模型的弱点的研究方向。

translated by 谷歌翻译

Salt and pepper noise removal method based on stationary Framelet transform with non-convex sparsity regularization

Yingpin Chen , Yuming Huang , Lingzhi Wang , Huiying Huang , Jianhua Song , Chaoqun Yu , Yanping Xu

分类：计算机视觉

2021-10-18

盐和辣椒噪声去除是图像处理中的常见问题。传统的去噪方法有两个限制。首先，通常未准确描述噪声特性。例如，噪声位置信息通常被忽略，并且盐和辣椒噪声的稀疏性通常由L1标准描述，这不能清楚地示出稀疏变量。其次，传统方法将污染图像分离成恢复的图像和噪声部分，从而导致恢复具有不满足平滑部件和细节部件的图像。在本研究中，我们引入了噪声检测策略来确定噪声的位置，并且采用由LP准规范描绘的非凸稀稀曲面正规化来描述噪声的稀疏性，从而解决了第一个限制。采用静止框架变换的形态分析框架将处理的图像分解为卡通，纹理和噪声部件以解决第二个限制。然后，采用乘法器（ADMM）的交替方向方法来解决所提出的模型。最后，进行实验以验证所提出的方法，并将其与一些最新的最先进的去噪方法进行比较。实验结果表明，该方法可以在保留加工图像的细节时去除盐和辣椒噪声。

translated by 谷歌翻译

GSPMD: General and Scalable Parallelization for ML Computation Graphs

Yuanzhong Xu , HyoukJoong Lee , Dehao Chen , Blake Hechtman , Yanping Huang , Rahul Joshi , Maxim Krikun , Dmitry Lepikhin , Andy Ly , Marcello Maggioni

分类：机器学习

2021-05-10

我们呈现GSPMD，一种用于公共机器学习计算的自动，基于编译的并行化系统。它允许用户以与单个设备的方式相同的方式编写程序，然后通过关于如何分发Tensors的一些注释来提供提示，基于哪个GSPMD将并行化计算。其分区的表示简单尚不一般，允许它在各种模型上表达并行性的不同或混合范式。GSPMD基于有限的用户注释为每个运算符的分区Inventing，使得缩放现有的单设备程序方便。它解决了生产使用的几种技术挑战，允许GSPMD实现50％至62％的计算利用率，用于高达2048个云TPUv3核心，适用于高达1万亿参数的模型。

translated by 谷歌翻译